我们考虑固定预算的最佳手臂识别问题,目标是找到具有固定数量样本的最大均值的手臂。众所周知,错误识别最好的手臂的概率对巡回赛的数量成倍小。但是,已经讨论了有关此值的速率(指数)的有限特征。在本文中,我们表征了由于所有可能的参数的全局优化而导致的最佳速率。我们介绍了两个费率,$ r^{\ mathrm {go}} $和$ r^{\ mathrm {go}} _ {\ infty} $,对应于错误识别概率的下限,每种范围都与A建议的算法。费率$ r^{\ mathrm {go}} $与$ r^{\ mathrm {go}} $ - 跟踪相关联,可以通过神经网络有效地实现,并显示出胜过现有的算法。但是,此速率要求可以实现非平凡的条件。为了解决这个问题,我们介绍了第二个速率$ r^{\ mathrm {go}} _ \ infty $。我们表明,通过引入一种称为延迟最佳跟踪(DOT)的概念算法,确实可以实现此速率。
translated by 谷歌翻译
我们考虑使用正常奖励分布的固定预算最佳武器识别问题。在此问题中,预报员将获得$ K $臂(或治疗)和$ t $时间步骤。预报员试图通过使用算法进行的自适应实验来找到最大的均值,以最大的均值定义。该算法的性能是通过简单的遗憾(即估计的最佳臂的质量)来衡量的。常见的简单遗憾可能是指数级至$ t $的,而贝叶斯简单的遗憾在多项式上很小至$ t $。本文表明,贝叶斯的最佳算法使贝叶斯简单的遗憾最小化,并不会对某些参数产生指数的简单遗憾,这一发现与许多结果形成了鲜明的对比,表明贝叶斯和频繁的算法在固定采样制度的上下文中的渐近等效性。虽然贝叶斯最佳算法是用递归方程式来描述的,而递归方程实际上是不可能准确地计算的,但我们通过引入一个称为预期的Bellman改进的关键数量来建立进一步分析的基础。
translated by 谷歌翻译
我们考虑在多武装匪徒问题中拜耳最佳武器识别。假设先前的某些连续性条件,我们表征了贝叶斯简单遗憾的速度。与贝叶斯遗憾的不同(Lai,1987),贝叶斯简单遗憾的主要因素来自最佳和次优臂之间的差距小于$ \ sqrt {\ frac {\ log t} {t}}$。我们提出了一种简单且易于计算的算法,其前导因子与下限达到恒定因子;仿真结果支持我们的理论发现。
translated by 谷歌翻译
本文提出了一种新的培训建议系统的方法,称为基于偏差的学习。建议者和理性用户有不同的知识。推荐人通过观察用户在收到建议时采取的行动来学习用户知识。最终学习如果推荐人总是建议选择:在推荐人完成学习之前,用户开始盲目地遵循建议,他们的选择并不能反映他们的知识。如果推荐人预测多种替代方案将产生类似的回报,那么学习率和社会福利会大大提高。
translated by 谷歌翻译
我们认为“政策选择”问题 - 否则称为强盗文献中的最佳臂识别 - 由Kasy和Sautmann(2021)提出的适应性实验设计。Kasy和Sautmann(2021)的定理提供了三种渐近结果,为该环境开发的探索采样提供了理论担保。首先表明定理1(1)的证明具有技术问题,定理1(2)的证明和声明是不正确的。然后,我们通过一个反例来展示定理1(3)是假的。对于前两者,我们纠正了陈述并提供严格的证据。对于定理1(3),我们提出了一种替代目标函数,我们称之为后加权政策遗憾,并导出勘探采样的渐近最优性。
translated by 谷歌翻译
We are introducing a multi-scale predictive model for video prediction here, whose design is inspired by the "Predictive Coding" theories and "Coarse to Fine" approach. As a predictive coding model, it is updated by a combination of bottom-up and top-down information flows, which is different from traditional bottom-up training style. Its advantage is to reduce the dependence on input information and improve its ability to predict and generate images. Importantly, we achieve with a multi-scale approach -- higher level neurons generate coarser predictions (lower resolution), while the lower level generate finer predictions (higher resolution). This is different from the traditional predictive coding framework in which higher level predict the activity of neurons in lower level. To improve the predictive ability, we integrate an encoder-decoder network in the LSTM architecture and share the final encoded high-level semantic information between different levels. Additionally, since the output of each network level is an RGB image, a smaller LSTM hidden state can be used to retain and update the only necessary hidden information, avoiding being mapped to an overly discrete and complex space. In this way, we can reduce the difficulty of prediction and the computational overhead. Finally, we further explore the training strategies, to address the instability in adversarial training and mismatch between training and testing in long-term prediction. Code is available at https://github.com/Ling-CF/MSPN.
translated by 谷歌翻译
受认知科学中知名的预测编码理论的启发,我们为视觉框架预测任务提出了一种新型的神经网络模型。在本文中,我们的主要工作是结合预测编码和深度学习体系结构的理论框架,为视觉框架预测设计有效的预测网络模型。该模型分别由一系列复发和卷积单元组成,分别形成自上而下和自下而上的流。它学会了以视觉序列预测未来的帧,网络中的每一层中的弯曲器可以从上到下进行本地预测。我们模型的主要创新是,该层上神经单位的更新频率随着网络级别的提高而降低,从时间维度的角度来看,模型中的导致模型看起来像金字塔,因此我们称其为金字塔预测性网络(PPNET)。特别是,这种类似金字塔的设计与预测性编码框架涉及的神经科学发现中的神经元活性一致。根据实验结果,该模型与现有作品显示出更好的紧凑性和可比的预测性能,这意味着较低的计算成本和较高的预测准确性。代码将在https://github.com/ling-cf/ppnet上找到。
translated by 谷歌翻译